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有問 題嗎？ 

評 論嗎?  

E 件 給我們 


歡 迎光臨 

微笑 的化學 反應數 據庫是 一組包 含反應 物左右 成對的 結構信 息和產 品兩百 萬不同 的化學 反應的 文件。 簡 化分子 輸入行 
輸入系 統的代 表分子 結構的 （笑） 是用來 表示分 子連接 字符串 的立體 關係， 的 確化學 反應。 這些的 SMILES 字符串 
表示形 式啟發 機器學 習計箅 機程序 ， 了 解輸入 / 輸出 關係之 間存在 反應的 空間和 畠空間 ， 採用 新穎的 字符串 變換箅 
法 （在本 書的實 施創造 一種新 的化學 ©2072, 預計將 公佈在 Amazon.com 在 2012 年 秋季， 使用 Mathematics 的编程 
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應 用範圍 ： 化學反 應的結 果預測 ， 構效和 Retrosynthetic 分析。 

作為 示範使 用字符 串的微 笑代表 的連通 性和立 體幾何 的化學 結構和 反應， 和機 器學習 技術的 實用， 可 以考慮 以下兩 
個驗 證這從 一個數 據集派 生了一 個數學 模型正 確預測 結 果擁有 100,000 反應 （其 中被排 除在外 ， 這兩個 反應） 反應型 

材 （結 構和 計量） 有 點類似 （非常 相似的 情況下 ， 測試 的目的 除外） ， 小說 毎個測 試用例 ： 
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當然， 機器 學習技 術同樣 適用於 retrosynthetic 分析- 心中有 一個目 標產品 ， 一個是 能夠預 測成功 的起點 ， 事先合 成的步 驟材料 

的 結構。 許多 暫定起 始原料 ， 或 為一種 人工合 成的步 驟線索 ， 可以通 過不同 的預測 模型計 箅得到 ， 自己 獲得每 個新車 型的基 
礎 上的數 據庫中 的不同 子集。 這樣 子集， 可以 選擇一 些選擇 標準， 或隨 機的， 但在 這種情 況下， ^訓 練的子 集必須 完全反 
應的反 應物具 有獨特 的集， 以 避免多 ！^] 數據 組成。 

反應的 預測是 一個一 （1:1) 的關係 ，而 retrosynthetic 分析 涉及一 到多 （1  ：  M) 的 關係。 在 retrosynthetic 分 析的情 況下， 這 
種情 况正在 處理通 過降低 設置的 ii^ 步 ' 由 此產生 的模型 ， 使 一個良 好的時 間部分 不正確 的建議 ' 訓練 數據的 大小。 未 納入一 
個重 要的金 額從數 據庫中 的知識 （和 可能的 類型） ， 該模型 室發言 創意的 排序。 然而， 隨後 通過一 支訓 練有素 的反應 預測模 
型的運 行結果 ， 我 們借回 確定性 ， 從而確 認是否 建議的 反應是 可行的 或不。 

機器學 習化學 反應可 以在三 個非常 重要的 方式從 比較正 統的方 法加以 ^分 ： 第一， 工作是 完全不 還原， 不作為 組成的 
亞原子 粒子的 行為的 結果解 釋化學 反應， 而是作 為結果 高等數 學守' E 定律。 

要理 解為什 麼守恆 定律， 它 代表數 學的對 稱性， 考 慮任何 非共線 數據點 在直角 平面。 可 能曲線 可以通 過這些 數據點 
的數 量是無 限的。 它 是高度 放肆， 幾乎 肯定錯 誤的， 天真地 以為， 連 接數據 點的平 滑曲線 代表正 確任意 彎曲的 數據集 
的中 間點。 數據 凝合， 這在本 質上， 甚至 包括如 神經網 絡技術 本身， 根 本無法 使用， 數 據籠統 概括。 事實仍 然是， 
至少 有一個 像件， 必須 適用於 曲線^ 分 溶液的 曲線。 這 需要一 個模型 的先驗 知識。 在任 何形式 的數據 凝合， 只 有正確 
使用調 整模型 參數， 而不 是派生 出一個 模型。 這是一 個非常 普遍的 困擾， 在 計算智 能領域 的許多 研究的 監督。 

我們在 這項工 作中， 而不是 尋找什 麼是數 學保守 □ 比例 因子。 數學守 恆定律 H 是同構 的線性 關係： y=bx， 使得 
HKmp^^MhKmPi^) 其中 Du 是經 驗分, 一  1 是一 個比例 因子和 m(') 是化學 指標。 鑑於空 間是離 散和有 限的， 我們可 
以 合法地 結束， 一個足 夠簡單 的函數 H 充分 大的 i, 有 足夠大 的我， 和精心 挑選的 度量， 數學守 恆 定 律已經 確定， 並 
在值新 穎點的 [HKr^d^^hKr^d^^ 之間的 經驗分 [H(m(Di  ^^(mPi  2))]^ 還在 於沿直 線連接 線的經 驗點。 地圖 可以被 

視為 完成和 d「2 可以 求解。 整點 的線性 化是有 、 可能 不同的 曲線， 比實 數集， ^ 的無 限大。 但 綁定到 一個特 
定點 的線性 射線是 &  , 只 取決於 9 的實際 價值。 

H 是通 過一個 進化的 過程中 授査。 □ 生隨 機函數 形式， 通 過兩輪 交叉， 鑾異， 簡化和 選擇。 這 兩個任 務的性 能和功 
能 的簡單 應用的 選擇性 壓力。 筒 單要求 我們找 到真正 的保護 功能。 一 個不合 理的任 務完成 的功能 效益為 目標。 

當 我們應 用我們 的數學 模型， 建築 技術的 笑容反 應數據 庫或其 中的任 意子集 的數學 模凝， 我們運 用相同 的邏輯 化學空 
間的 一個子 集-所 有的分 子結構 的離散 空間。 

第二 個顯著 的因素 是高層 次的數 學守' E 定律， 我 們用來 預測反 應後， 直 接根據 ： 

• 實驗反 應數據 -反應 數據庫 存儲兩 百萬的 反應字 符串。 
• 搦特 的化學 圖形字 符串表 示形式 - SMILES。 

• 獨特的 ，統一 大小， 為了 依賴性 和可逆 的字符 串的親 矩陣 （非 交換） 使 用替代 字符矩 陣乘法 的數學 表示。 
• 數 據拼接 -數據 融合的 定義， 通過數 學守恆 定律的 發現。 
• 盡可 能簡單 的函數 H 的演 變是 關鍵。 

•  H 是一 個標量 函數， 而 m 是一 個矩陣 函數。 

•  H 的功能 形式是 依賴於 m 的函 數形式 ， M 值和 D.k  0 

• 化學 指標- 標量值 的典型 性的先 進理論 為基礎 的矩陣 函數。 


由於字 符串代 表矩陣 m(》 是一個 標量， 我 們基本 上分配 多維數 據點， 以 點上的 實線。 這不 會導致 分配給 多個多 維數據 點對單 
點 實線。 事 實上， 代表 在飛機 上所有 點上的 實線代 表無限 的大小 之分的 無限大 小是相 同的。 因此， 所有 n 維數 據點獨 特的作 


業點 上的實 線是可 能的， 這 是可證 明的。 採取一 個兩 維平面 上的點 （x,y) 。 我們 可以把 我們; 1 寄使 用富下 x 和 y 的數 字， 他們簡 
單地 交錯。 此交 錯技術 成果， 在每一 個可能 的點的 實數和 相同數 量的平 面地圖 上汊有 兩點。 這同 樣的論 點可以 擴展到 任意維 
數， 只要我 們有一 個維度 的數量 有限。 維度 的概念 具有無 限空間 的大小 或基數 上汊有 影響; 尺寸是 cardinally 意義。 然 而在這 
裡， 我 們正在 處理， 如 果被認 為是整 個體積 離散超 體積， 可數 無窮， 但 在這種 情況下 -一個 非常大 的數量 有限。 盡可能 小的有 

機 分子的 總數， ± 真充 化學空 間估計 已超過 10  6Q。 因此 反應空 間是不 可思議 的大， 但有 限的。 

第三個 顯著的 因素是 ， 機器學 習技術 ， 更明確 ， 更高效 ， 更能多 镳用於 化學反 應的問 題時比 傳統的 方法。 例如， 一般 只限於 
傳統的 量子反 應散射 計算的 準確度 範圍內 任何涉 及少於 6 個 原子的 反應。 涉 及超過 6 個原 子反應 散射問 題成為 有效的 頑固性 ， 
由於在 從量子 理論的 繼承， 在一 個合理 的答案 的數學 對象， 必須執 行的操 作的數 量組合 增加。 

字符 串轉換 在數學 和物理 ， 以 及許多 有價值 的應用 （例如 ， 被稱為 重富長 期的正 式技術 用在計 算機代 數系統 領域） 。 

關 於微笑 的反應 數據庫 

在 2007 年， 迅速 在過 去一年 的工作 開始了 一個人 的審查 的化學 反應數 據庫的 組合， 不久後 開發的 軟仵支 持圖像 知識提 取和蜘 
蛛 終於實 現了。 的微 笑反應 數據庫 現在是 186.8  MB 的大小 ' 它包 含兩百 萬對數 千名受 人尊敬 的期刊 和專利 , 從 六個文 件中提 
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